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基于 时 序 性 面部 动作 信息 的 驾驶 员 状 态 检 测 框架 ， 
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摘 € 在 安全 驾驶 领域 ， 驾 驶 员 的 身心 状态 对 于 交通 安全 至 关 重要 。 通 过 网 络 摄像 头 获 取 驾 驶 员 面部 视频 输入 网 络 
进行 检测 ， 是 检测 疲劳 等 异常 驾驶 的 有 效 手 段 。 之 前 的 方法 主要 通过 分 析 驾 驶 员 口 型 等 面部 表情 来 分 析 是 否 打 哈欠 ， 
从 而 判断 是 否 疲劳 驾驶 ， 因 此 说 话 等 很 多 类 似 的 状态 也 被 误 检 为 疲劳 。 针 对 以 上 问题 提出 了 一 种 基于 时 序 性 面部 动作 
信息 的 检测 框架 ， 对 驾驶 员 状 态 进行 检测 ， 从 而 提高 检测 准确 率 、 降 低 误 检 率 。 该 框架 主要 包含 两 个 关键 部 分 : a) 通 
过 检测 视频 中 的 脸 部 轮廓 ， 提 取 脸 部 的 多 种 特征 ， 形 成 面部 动作 单元 ; b) 通过 训练 对 应 的 LSTM 网 络 ， 形 成 时 序 性 的 
面部 动作 单元 ,根据 其 相关 性 进行 多 种 动作 单元 融合 ,检测 最 终 驾 驶 员 的 状态 。 在 公共 YAW-DD 数据 集 上 的 检测 结果 
表明 ， 相 比 于 现 有 的 方法 ， 准 确 率 提高 到 了 93.1%， 同 时 大 幅 降 低 了 疲劳 状态 的 误 检 率 。 
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Driver state detection framework based on temporal facial action information 
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Abstract: In the field of safe driving, the driver's physical and mental state is critical to traffic safety. It is an effective means to 
detect abnormal driving such as fatigue by detecting the driver's face video input network through a webcam. The previous 
method mainly analyzes the facial expressions such as the driver's mouth shape to analyze whether or not to yawn, thereby 
judging whether or not fatigue driving, and therefore many similar states such as speaking are also mistakenly detected as fatigue. 
Aiming at the above problems, a detection framework based on sequential facial motion information is proposed to detect the 
driver's state, thus improving the detection accuracy and reducing the false detection rate. The framework mainly consists of 
two key parts: (1) by detecting the contour of the face in the video, extracting various features of the face to form a facial action 
unit; and (2) forming a sequential facial action by training the corresponding LSTM network. The unit performs a plurality of 
action unit fusions according to its correlation to detect the state of the final driver. The test results on the public YAW-DD data 
set show that the accuracy rate is increased to 93.1% compared with the existing method, and the false detection rate of the 
fatigue state is greatly reduced. 
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进行 判断 和 评估 是 十 分 重要 的 。 


0 言 
al ARR, EARS TE ER ADARKA, — 
除 自然 灾害 外 , 交通 事故 是 造成 死亡 人 数 最 多 的 灾害 之 一 ， ”是 指 道 路 或 车 辆 相关 因素 中 的 环境 ,二 是 关于 驾驶 员 的 行为 ， 本 


> 


同时 也 会 造成 重大 的 财产 损失 趾 . 据 查证 ,造成 交通 事故 的 原因 文 的 研究 重点 是 对 驾驶 员 的 状态 进行 检测 ， 从 而 判断 驾驶 员 状 
有 驾驶 员 状 态 、 车 辆 状况 、 天 气 情况 和 道路 状况 ， 其 中 有 95% SETARE. 驾驶 员 状态 异常 主要 有 以 下 的 类 别 ， 疲 劳 驾 驶 、 
的 事故 原因 是 由 驾驶 员 状 态 造成 的 。 因 此 对 驾驶 员 的 驾驶 状态 。 酒 后 驾车 、 愤 怒 驾 驶 和 分 心 驾 驶 四。 现 有 许多 基于 视觉 分 析 的 
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驾驶 员 疲 劳 检测 系统 ， 将 摄像 机 安装 在 仪表 板 上 ， 并 将 摄像 机 
直接 对 准 芍 驶 员 的 脸 部 ， 主 要 捕捉 面部 和 眼睛 特征 ， 进 而 对 鸭 
驶 员 的 状态 进行 判别 。 
通过 监视 设备 来 获取 鸭 驶 视频 ， 并 通过 计算 机 视觉 的 方法 
5 来 区 分 驾驶 状态 ， 是 一 种 投入 成 本 少 、 快 捷 的 方法 。 在 论文 
中， 提出 了 一 种 基于 眼睛 状态 ， 及 头 部 姿势 的 监测 驾驶 过 程 
中 的 驾驶 员 状 态 的 方法 。 他 们 的 结果 表明 , 可 以 通过 结合 眼睛 


和 头 部 信息 来 实现 更 为 有 效 的 轨 驶 员 状 态 检测 。 McCall 等 人 图 1 面部 动作 编码 系统 中 的 面部 分 解 示例 

使 用 的 司机 行为 推理 DD 乌 的 方法 ， 来 代 蔡 轨迹 预测 CTF) 面部 动作 编码 系统 EACS) 可 以 说 是 行为 科学 中 用 于 编码 

方法 。 DI 方法 推断 驾驶 员 是 否 故 意 变换 车 道 ， 并 且 预 测 车 辆 。” 面部 表情 的 最 广泛 使 用 的 方法 。 该 系统 根据 46 个 分 量 运 动 描 

会 不 会 通过 车 道 边界 ， 而 不 管 驾 驶 员 的 状态 如 何 。 述 面部 表情 , 大 致 对 应 于 各 个 面部 肌肉 运动 。 图 1 显示 了 一 个 
这 些 工 作 虽 然 在 很 多 方面 实现 了 更 为 有 效 的 驾驶 员 状 态 检 PF. FACS 提供 了 一 种 客观 而 全 面 的 分 析 面 部 状态 或 动作 的 


测 ， 但 基于 视频 的 疲劳 检测 仍然 充满 挑战 。 主 要 因为 照明 条 件 。 方式 ， 已 经 被 证 明 可 用 于 检测 人 的 情感 状态 。FACS 可 以 编码 
变化 ， 头 部 姿态 变化 和 时 间 依 赖 性 等 原因 。 特 别 是 ， 头 部 姿势 ” 几乎 任何 解剖 学 上 可 能 的 面部 表情 ， 并 将 其 解构 成 特定 行动 单 
的 大 的 变化 幅度 ， 会 导致 视频 中 的 面部 形状 的 严重 变形 ， 这 使 。 位 (AU) 来 客观 描述 不 同 的 面部 表情 。 因 此 在 本 文中 使 用 该 系 
得 常规 方法 难以 提取 有 效 的 数据 。 基 于 对 齐 脸 部 点 外 的 方法 是 ” 统 来 对 驾驶 员 的 表情 及 状态 进行 判别 ， 通 过 视频 检测 下 巴 
表示 疲劳 特征 的 更 好 的 方式 ， 然 而 ， 忽 略 视 频 中 的 时 间 关 系 ， (AU17) ， 自 唇 沟 深 度 (AU11) ， 外 部 (AU2) 和 内 部 眉毛 提 
意味 着 它 不 能 有 效 区 分 正常 的 及 眼 和 因 疲 劳 引起 的 皮 眼 。 因 此 Ft CAUD 等 ， 进 而 通过 这 些 行动 单位 的 组 合 来 判断 驾驶 员 此 
论文 四 通过 收集 时 间 信息 ， 区 分 具有 时 间 上 的 长 期 依赖 性 的 状 ”时 的 状态 。 


态 ， 如 打 呵 欠 和 说 话 。 1.2 长 短期 记忆 网 络 

于 人 类 行为 及 脸 部 表情 的 复杂 性 ， 本 文 提出 了 一 个 基于 长 短期 记忆 网 络 (LSTM) 是 一 种 特殊 的 RNN 网 络 ， 能 
时 序 性 信息 的 ， 多 特征 融合 的 面部 动作 识别 框架 ， 来 对 驾驶 员 ”学 习 特 征 中 的 时 序 性 信息 。LSTM 由 Sepp Hochreiter 和 Jürgen 
的 驾驶 状态 进行 一 个 综合 性 判别 。 首 先 本 文 基于 驾驶 员 的 面部 。 Schmidhuber 于 1997 年 提出 ， 在 近 些 年 被 Alex Graves 进行 改 


视觉 信息 对 驾驶 员 面 部 状态 ， 采 用 编码 系统 FACS) 对 驾驶 员 ” 善 并 推广 。 在 众多 有 关 时 序 性 问题 的 检测 中 ，LSTM 都 取得 了 
的 面部 肌肉 动作 等 进行 判断 。 接 下 来 通过 数据 的 时 序 信息 对 多 ”不 俗 的 表现 。 


帧 数据 进行 连续 性 判别 ， 从 而 更 加 精准 的 判别 驾驶 员 的 状态 。 通过 引入 LSTM 来 解决 检测 中 的 长 期 依赖 问题 。LSTM 默 
本 文采 用 普通 网 络 摄像 头 (webcam ) 用 于 捕捉 视觉 信息 , 研究 。 认 记 忆 时 序 性 信息 ， bellu ci 的 消耗 。LSTM 的 巧妙 之 
脸 部 特征 与 驾驶 员 状 态 之 间 的 关系 。 本 文 的 方法 主要 贡献 有 以 ” 处 在 于 通过 增加 输入 门 ， 遗 忘 门 和 输出 门 ， 使 得 自 循环 的 权重 


三 个 方面 : a) 综合 利用 面部 的 多 种 特征 信息 ， 对 驾驶 员 的 面 。 是 随时 变化 的 ， 这 样 一 来 在 模型 参数 固定 的 情况 下 ， 不 同时 刻 
部 动作 进行 判别 ; b) 通过 连续 帧 的 时 序 性 信息 对 驾驶 员 的 状态 ”可 以 进行 动态 的 积分 改动 ， 从 而 避免 了 深度 神经 网 络 系统 中 的 


进行 判断 ;jc) 将 面部 动作 进行 强度 区 分 进而 更 加 精准 的 判别 测 。 ”梯度 消失 或 者 梯度 膨胀 的 问题 

试 人 员 面 部 表情 信息 。 本 文 的 方法 通过 上 述 改 进 , 建立 了 更 为 在 存在 时 间 动 态 特 性 的 问题 中 ，LSTM 网 络 被 应 用 于 连续 

有 效 的 驾驶 员 状 态 检 测 框架 ， 在 提高 检测 准确 率 的 同时 ， 降 低 帧 上 的 空间 特性 的 表示 ， 可 以 区 分 具有 时 间 关 系 的 状态 ， 诸 如 

了 误 检 率 。 打 呵 欠 和 笑 ， 脖 眼 和 闭 眼 等 。 因 此 ， 本 文 的 框架 加 入 了 LSTM 
网 络 来 挖掘 视频 中 的 时 间 线 索 。 


1 ”相关 工作 


1.1 面部 动作 编码 系统 Eo 

面部 动作 编码 系统 (FACS ) 是 ipo 解剖 学 家 Carl- 众所周知 ， 作 为 疲劳 的 表现 ， 昏 昏 欲 睡 等 状态 信息 集中 在 
HermanHjortsjó 00 的 理论 开发 的 系统 ， 通 过 脸 部 外 观 对 人 体 脸 几 个 主要 的 面部 部 位 如 眼睛 、 自 子 和 嘴巴 。 说 话 和 愤怒 等 表情 
部 运动 进行 分 类 的 系统 。Ekman，Friesen 和 Joseph C. Hager!!! 状态 的 信息 同样 集中 这 些 面部 部 位 。 因 此 所 提出 的 方法 是 利用 
于 2002 年 发 表 了 一 篇 重要 的 FACS 系统 改进 方案 0 。 采用 面部 动作 编码 系统 来 对 视频 中 驾驶 员 的 面部 信息 进行 分 析 ， 然 
FACS 系统 ， 对 面部 外 观 的 轻微 不 同 即时 变化 来 编码 ， 用 于 检 后 通过 面部 外 观 的 轻微 不 同 与 即时 变化 来 编码 单个 面部 肌肉 的 
测 单个 面部 肌肉 的 运动 。FACS 已 经 成 为 一 种 计算 机 自动 化 系 运动 ， 再 通过 组 合 这 些 动作 单元 来 对 单 帧 数据 中 驾驶 员 的 面部 
统 ， 可 以 检测 视频 中 的 脸 部 ， 提 取 脸 部 的 几何 特征 ， 然 后 生成 状态 进行 综合 性 判断 。 接 下 来 ， 将 获取 的 帧 数据 进行 时 序 性 分 
每 个 脸 部 运动 的 运动 特征 03]。 析 ， 从 而 对 该 时 间 段 的 驾驶 员 状 态 进行 更 为 科学 的 判断 。 其 步 

又 如 图 2 所 示 。 
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在 以 往 的 方法 中 都 只 是 对 驾驶 员 是 否 疲 劳 这 一 状态 进行 判 
断 ， 由 于 说 话 和 打 哈 从 在 某 些 方面 有 相似 性 ， 这 就 会 导致 许多 


ETE : ÄTEA 


范 。 为 了 降低 误 判 的 概率 ,本 文 将 说 话 这 一 动作 单独 列 为 一 
对 说 话 时 的 动作 单元 也 进行 时 序 性 学 习 ， 从 而 减少 说 话 被 认为 


说 话 的 动作 被 误 判 成 打 哈 从。 在 实际 应 用 中 这 种 误 判 可 能 会 ， 
影响 对 驾驶 员 蜀 驶 状态 的 判断 ， 从 而 无 法 作出 有 效 的 判定 及 防 
第 N 帧 


图 2 系统 框架 : 


2.1 面部 关键 点 标记 
本 文 对 测试 人 员 状 况 的 判断 基于 面部 信息 。 脸 部 信息 可 以 
通过 脸 部 的 关键 点 呈现 。 为 了 获得 关键 点 , 首先 需要 根据 如 下 


所 示 的 ASM 形状 模型 函数 构造 人 脸形 状 模型 : 
x-x-c-PB (1) 
其 中 : x 表示 平均 脸形 , P 是 由 形状 变化 的 主 成 分 构成 的 矩阵 
其 通过 M 张 图 片 中 的 每 张 图 片 的 N 个 特征 点 。 图 像 上 的 N 个 
特征 点 的 坐标 向 量 表示 为 
x &[x,n35 595v] Q) 
所 有 图 像 的 平均 脸形 可 以 通过 如 下 公式 表示 : 
元 -l yo 6) 
M i-l 
从 平均 脸 部 向 量 中 减 去 每 个 脸 部 的 向 量 以 得 到 具有 均值 0 
的 形状 变化 矩阵 X， 如 下 所 示 : 
a m 
X= (4) 
CN xn yon 


必须 指出 的 是 ， 此 时 X 是 一 个 零 均值 形状 变化 矩阵 ， 因 为 
从 每 个 行 向 量 中 减 去 平均 面向 量 , 所 以 与 平均 面 的 偏差 , XX' 的 
主 分 量 分 析 给 出 了 决定 性 形状 变化 分 量 ， 即 特征 向 量 Pi 和 相 
应 的 特征 值 入 , 选择 第 一 个 特征 向 量 以 列 形式 排出 , 并 形成 
形状 变化 矩阵 P 这 些 特征 向 量 实际 上 是 所 有 样本 变换 的 基础 ， 
且 可 以 表示 样本 中 的 任何 变化 。 形状 变化 矩阵 P，B 可 以 通 


W: 


B-P'(x-x) (5) 


在 构建 形状 模型 之 后 ， 可 以 在 检测 到 的 人 脸 上 初始 化 人 脸 
形状 模型 。 
在 这 里 ， 本 文 分 别 训练 了 眼 瞪 和 眉毛 分 布 模型 。 


然后 ,结合 每 


接 下 来 的 工作 是 让 每 个 点 在 其 附近 找到 最 佳 严 配点 。 


是 疲劳 的 误 判 。 本 文 的 实验 部 分 ， 充 分 说 明了 这 些 误 判 的 存在 
及 本 文 方法 对 减少 此 类 误 判 中 起 到 的 关键 性 作用 。 


前 N 帧 结 
果 


WE 1 
em f 
-i 


从 视频 中 采集 信息 ， 结 合 AU 分 析 及 LSTM 网 络 时 序 分 析 ， 判 断 驾 驶 员 状 态 


个 模型 来 匹配 关键 点 。 长 时 间 面 部 追踪 很 容易 导致 追踪 漂移 或 
面部 消失 ， 因 此 需要 在 面部 (关键 点 ) 确认 步 又。 可 以 训练 简 
单 的 卷 积 神经 网 络 (CNN) 来 检测 人 脸 并 生成 关键 点 。 关 键 点 
生成 在 图 3 中 示 出 。 
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图 3. 面 部 关键 点 标记 
2.2 面部 动作 编码 
通过 面部 关键 点 可 以 将 人 脸 各 个 部 位 进行 提取 ， 进 而 进行 
面部 动作 编码 。 本文 借 鉴 Tada's 等 人 的 方法 04 来 实现 面部 动作 
编码 系统 。 
2.2.1 脸 部 追踪 
可 以 通过 参数 p=[s, R, p. tJ BE HIT] CLMD35 模 型 ， 
些 参 数 可 以 变化 以 获取 模型 的 各 种 实例 : 比例 因子 s; 对 象 旋 
转 R (3D 旋转 矩阵 的 前 两 行 ) ;2D 翻转, t; 描述 形状 p 的 非 刚 
性 变化 的 矢量 。 点 分 布 模型 (PDM) 是 


"E 


x=s R (X+Dp) +t (6) 


2.2.2 对 齐 和 标记 

为 了 更 好 地 分 析 脸 部 的 纹理 ， 需 要 将 其 映射 到 公共 参考 框 
架 并 去 除 由 于 缩放 和 平面 旋转 引起 的 变化 。 为 此 , 使 用 从 当前 
检测 到 的 地 标 到 中 性 表达 (来 自 3D PDMI 的 平均 形状 的 投影 ) 
的 正面 界 标的 表示 的 相似 变换 。 得 到 的 是 具有 45 像素 瞳 距 的 
112X112 像素 的 脸 部 图 像 。 为 了 计算 相似 性 变换 ， 使 用 普 鲁 


县 加 ， 其 使 对 准 的 像素 之 间 的 均 方 误差 最 小 化 。 


Hil 
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Tn 


2.2.3 外 观 特征 频 进 行 分 割 。 由 于 每 个 Yaw-DD 数据 集中 的 视频 ， 包 含 了 很 长 
将 脸 部 图 像 对 齐 为 112X 112 大 小 的 图 像 , 从 中 提取 外 观 特 ”一 段 时 间 的 驾驶 员 状 态 ， 即 混杂 着 疲劳 状态 及 非 疲 劳 状 态 的 多 


征 。 在 这 一 步 中 , 本文 使 用 Felzenswalb09 等 人 提出 的 提取 面向 ”次 转换 ， 这 对 于 精确 判断 芍 驶 员 状 态 来 说 是 一 个 问题 。 在 使 用 
梯度 的 直方 图 (HOG) ， 使 用 8X8 像素 的 2X2 公开 数据 集 的 基础 上 ， 为 了 进一步 验证 框架 的 有 效 性 ， 本 文 
单元 块 。 形成 12X12 的 31 维 直 方 图 ， 导 入 描述 人 脸 的 。 ” 建 了 一 个 数据 集 用 于 框架 的 实验 验证 。 真 实 的 驾驶 数据 不 容易 
4464 维 矢量 。 获取 ,因此 出 于 安全 的 考虑 , 本 文通 过 驾驶 模拟 器 来 获取 数据 。 
23 动作 单元 选择 实验 装置 如 图 4 所 示 。 
本 文通 过 结合 多 个 面部 动作 单元 信息 来 判断 驾驶 员 的 状态 。 
针对 本 文 所 要 解决 的 问题 需 ， 选 择 合适 的 面部 动作 单元 ， 去 除 
多 余 的 信息 ， 从 而 减少 噪声 、 提 高 效率 。 在 接 下 来 的 过 程 中 ， 


对 多 组 数据 进行 实验 来 对 面部 动作 进行 筛选 ， 最 终 选 定 部 分 单 
元 (AU2、AU4、AU7、AU9、AU26 和 AU45 作 ) 为 主要 动作 
单元 进行 判别 。 动 作 单 元 的 选择 在 实验 部 分 有 详细 的 说 明 过 程 。 
2.4 时 序 性 动态 特征 的 创建 

LSTM 模型 是 由 一 个 输入 门 ， 一 个 忘记 门 ， 一 个 输出 门 和 


一 个 存储 单元 组 成 。 由 于 有 三 个 门 , LSTM 模块 可 以 学 习 顺 序 à 

数据 中 的 长 期 依赖 关系 , 并 且 甚 参数 更 容易 被 训练 。 存储 器 单 图 4 模拟 驾驶 装置 

元 可 以 将 长 期 信息 存储 在 其 向 量 中 ， 这 可 以 在 下 一 个 时 间 步 又 在 该 数据 集中 ， 使 用 驾驶 模拟 器 来 模拟 驾驶 并 通过 普通 摄 
中 重 写 或 完成 其 他 操作 。 像 头 捕捉 驾驶 员 的 视觉 信息 。 本 数据 集 包 含 10 位 测试 员 (6 


打 哈 欠 说 话 等 行为 是 一 个 连续 性 的 动作 ， 因 此 仅 通 过 单 张 ，4 女 ) ， 他 们 在 三 种 不 同 的 交通 状况 (城市 ， 国道 和 乡村 道 
图 片 中 的 动作 单元 信息 进行 判别 容易 出 现 较 大 的 误差 。 将 连续 。 路 ) 中 模拟 三 种 驾驶 状态 (正常 ， 疲劳 和 交流 ) 。 在 仿真 过 程 
数据 作为 判断 依据 将 会 更 加 合理 。 驾 驶 员 的 状态 应 该 是 由 一 段 中， 测试 人 员 处 于 最 佳 驾 驶 状态 并 符合 区 驶 规则 。 本 数据 集 采 
时 间 中 所 有 帧 数据 进行 判断 的 ， 而 不 是 某 一 帧 中 的 状态 。 因 此 与 YAW-DD 相同 的 640x480 24 位 真 彩色 (RGB) 每 秒 30 Wi 
可 以 应 用 LSTM 来 建 模 驾驶 员 状 态 的 时 间 上 的 动态 特性 。 的 AVI 格式 ， 有 音频 。 共 生成 了 300 分 钟 的 数据 量 。 

在 实际 用 中 ， 也 会 在 非 疲倦 状态 中 ， 作 出 错误 的 操作 及 防 
范 ( 如 提醒 或 者 给 出 警报 ), 从 而 影响 产品 实用 体验 及 信任 度 。 
本 次 实验 使 用 了 两 组 数据 集 ， 第 一 组 为 通过 模拟 器 模拟 驾 ”同时 ,这 些 存 在 不 同 状态 转换 的 视频 , 无 法 直接 用 于 训练 LSTM 


— 


3 ”模型 建立 及 实验 分 析 


驶 收集 自 建 数据 集 ， 第 二 组 为 公开 的 Yaw-DD 数据 集 。 通 过 这 获取 某 种 状态 的 时 序 信息 。 为 了 解决 这 些 问 题 ， 分 割 并 重新 
两 组 数据 集 对 框架 进行 框架 搭建 和 实验 验证 。 标记 了 这 些 视 频 。 这 些 视 频 被 剪 切 成 只 包含 说 话 、 疲 劳 ， 及 其 
3.1 数据 集 电 状 态 之 一 的 视频 片段 ， 并 进行 标记 《标记 状态 ) 。 为 了 描述 

针对 本 文 所 使 用 的 Yaw-DD 数据 集 071, 被 广泛 用 于 验证 疫 ”这 三 种 状态 之 间 的 过 渡 特 征 ， 在 每 类 状态 剪辑 的 头 部 和 尾部 保 


劳 检测 算法 和 模型 。 该 数据 集 包 含 来 自 不 同年 龄 ， 种 族 和 面部 。 7 10 帧 正常 帧 。 
特征 的 57 名 男性 和 50 名 女性 志愿 者 的 视频 。 3.2 动作 单元 选择 实验 
对 于 Yaw-DD 数据 集 , 首先 进 要 行 初 步 的 数据 分 割 及 盘 选 ， ”3.2.1 疲劳 信息 单元 筛选 
在 该 数据 集 的 每 段 视频 中 测试 人 员 都 会 进行 以 下 三 种 行为 ， 自 为 了 理解 疲劳 相关 的 脸 部 动作 单元 ， 本 文 的 方法 将 每 个 面 


然 〈 无 动作 ) 、 说 话 和 打 哈 欠 ， 本 文 对 这 三 种 行为 分 别 进行 标 ”” 部 动作 进行 了 单独 训练 并 测试 《CNN 网 络 ) 。 对 每 个 脸 部 动 


记 并 分 割 。 在 重新 生成 的 数据 集中 ， 分 析 本 文 框 架 及 现 有 方法 作 单 元 的 检测 结果 ， 揭 示 了 哪些 单元 对 于 疲劳 检测 有 效 。 表 1 
的 性 能 。 显示 了 疲劳 与 部 分 面部 动作 相关 程度 。 
在 该 数据 集中 ， 收 集 的 视频 主要 是 在 白天 ， 但 也 包含 在 各 通过 上 述 实验 ， 能 够 得 出 最 能 预测 疲劳 的 六 个 面部 动作 分 


种 照明 条 件 下 录制 的 视频 ， 即 光照 环境 从 清晨 到 日 落 。 此 外 ， ” 别 是 AU45 上 甩 眼 / 眼 闭合 ) ,AU2〔( 外 眉 提 高 )，AU7 CRETE 
天 气 情况 包含 了 晴天 雨天 等 , 营造 出 不 同 的 驾驶 条 件 。 在 一 些 。 肌 内 圈 收 紧 )，AU4 (人 皱眉) ,AU9 (鼻子 皱 起 ) 和 AU26 (下 
视频 中 ， 还 有 其 他 乘客 在 车 内 移动 ， 因 此 有 一 些 背景 动作 。 数 MEFA). 因此 本 文 的 方法 将 这 六 个 面部 动作 单元 进行 组 合 
据 集 中 的 测试 人 员 还 分 为 无 眼镜 和 有 了 眼镜 两 类 。 视 频 是 在 真实 。 来 检测 疲劳 。 


和 变化 的 照明 条 件 下 拍摄 的 。 视 频 采 用 640x480 24 位 真 彩色 在 对 视频 的 研究 中 还 发 现 ， 当 打 哈 从 时 许多 受 试 者 试图 抬 
(RGB) 30 fps 的 AVI 格式， 无 音频 。 起 眉毛 保持 眼睛 睁 开 , 实验 中 的 AU2 探测 器 的 强 关 联 性 与 该 观 


根据 数据 集中 给 出 的 状态 ， 本 文 的 方法 进一步 对 数据 集 字 
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: ux 
录用 入 EFE, $: srren GIRIYA IRAR 
del 面部 动作 与 疲劳 相关 度 表 2 面部 动作 单元 与 说 话 相关 度 
AU 动作 名 称 与 疲劳 相关 度 CAD AU 动作 名 称 与 说 话 相关 度 (%) 
1 抬 起 眉毛 内 角 68 1 抬 起 眉毛 内 角 58 
2 抬 起 眉毛 外 角 82 2 抬 起 眉毛 外 角 61 
4 皱眉 80 6 眼 轮 臣 肌 外 圈 收 紧 62 
6 眼 轮 臣 肌 外 圈 收 紧 72 7 REL p A Puit s 67 
7 眼 轮 臣 肌 内 圈 收 紧 86 9 ET 54 
9 E! 79 15 拉动 嘴角 向 下 倾斜 63 
15 拉动 嘴角 向 下 倾斜 73 17 推动 下 层 向 上 75 
17 iz PUE SLE 71 25 E OK 91 
25 HJEK 72 26 下 颌 骨 下 拉 80 
26 下 颌 骨 下 拉 77 45 ZIR 45 
45 uz HR 92 在 表 2 中 ， 可 以 看 到 与 说 话 这 一 行为 相关 度 最 高 的 动作 单 


3.22 说 话 动作 单元 筛选 
驾驶 过 程 中 说 话 也 是 一 种 十 分 常见 的 行为 ， 并 且 这 种 行为 


与 疲劳 中 的 打 哈欠 行为 容易 混淆 ， 因 此 在 疲劳 检测 中 1 


E 确 的 


X 


分 说 话 和 打 哈 欠 也 是 十 分 有 必要 的 。 与 疲劳 检测 相 比 ， 说 话 这 


种 行为 涉及 的 面部 动作 将 会 有 所 减少 ， 主 要 集中 在 嘴 部 


FJ FECE 
32. 


对 每 个 动作 单元 与 说 话 间 的 相关 性 进 


AU 强度 


时 间 刻 度 ( 帧 》 


AU2 (外 导 提 高 ) | Eh 


AUT REIA BCE) 


AU 强度 


D 
时 间 刻 度 〔 帧 ) 


AU 强度 


AU26〈 下 颌 骨 下 拉 ) TB 
F FR _ pitis 


三 疲劳 


Y E 
时 间 刻 度 〈《 帧 》 


(推动 下 辱 向 上 ) | | 太白 然 


区 域 。 
行 了 测试 得 到 


元 就 是 AU25、AU26 和 AUI7. 


寻 此 本 文 的 方法 在 对 三 种 状态 进行 区 分 时 选择 以 下 8 个 动 


作 单 元 , BU AU2、AU4、AU7、AU9、AU17、AU25、AU26 和 

AU45 动作 单元 。 

3.3 动态 特征 分 析 实 验 
针对 为 了 区 分 三 种 状态 而 选取 的 8 个 单元 ， 在 相同 数据 格 

式 的 (5 s\150 WO 数据 集中 ， 对 时 序 过 程 中 的 动作 强度 变化 规 


E 


律 进行 了 比较 分 析 ， 得 到 如 图 S 所 示 结 果 。 
AU4 CIE HA 


AU 强度 


AU 强度 


AU 强度 


" Li 
时 间 肇 度 OD 


AU45【〔 茎 眼 / 闭 眼 程度 》 


时 间 刻 度 〈 帧 ? 


图 5 不 同 脸 部 动作 单元 和 驾驶 员 状 态 之 间 的 关系 
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录用 稿 


根据 上 面 的 实验 结果 ， 


可 以 清晰 的 看 到 在 相同 的 时 间 窗 内 ， 


不 同 状 态 下 各 动作 单元 的 强度 变化 趋势 还 是 有 相当 大 的 差异 ， 


因此 根据 这 些 数 据 情 况 ， 


根据 上 述 实验 结果 ， 
验证 实验 。 


针对 所 选取 的 脸 部 动作 单元 ， 进 
有 效 检 验 疲 劳 的 AU45 动作 开始 ， 


进行 三 种 状态 的 区 分 ， 是 有 效 的 。 
3.4 LSTM 网 络 训练 及 测试 


建立 LSTM 网 络 框架 


， 并 进行 了 相关 


了 训练 。 从 了 最 能 


然后 再 此 基础 上 添加 下 一 个 


检测 特征 ， 直 到 所 有 特征 相 加 。 选 取 不 同 特征 的 LSTM 网 络 的 
准确 率 结果 如 表 3 所 示 。 
表 3 特征 选择 组 合 准确 率 
特征 选择 准确 率 /% 
AU45 62.1 
AU45+AU2 67.5 
AU45+AU2 +AU4 69.2 
AU45+AU2 +AU4+AU7 73 
AU45+AU2 +AU4+AU7+AU9 74.1 
AU45+AU2 +AU4+AU7+AU9+AU17 80.2 
AU45+AU2 +AU4+AU7+AU9+AU17+AU25 84.7 
AU45+AU2 +AU4+AU7+AU9+AU17+AU25+AU26 92 
含 所 有 特征 (未 进行 篇 选 ) 83.2 
3.5 状态 二 分 类 VS 状态 三 分 类 
本 文选 取 准 确 率 最 高 的 特征 组 合 ( AU45+AU2 
+AU4+AU7+AU9+AU17+AU25+AU26) ， 对 二 分 类 (疲劳 、 自 然 )， 
和 三 分 类 (疲劳 、 说 话 、 自 然 〉 时 ， 对 本 文 的 方法 进行 了 对 比 
实验 ， 其 结果 如 图 6 所 示 。 
数据 分 类 比较 
误 判 率 准确 率 
图 6 数据 分 类 比较 
从 图 6 中 能 清晰 地 看 到 ， 将 说 话 这 一 行为 单独 作为 一 类 分 
离 出 来 ， 能 够 极 大 地 降低 误 判 的 概率 ， 同 时 提升 疲劳 状态 的 判 
断 准确 率 。 
3.6 传统 算法 VS 本 文 算法 
本 文选 取 几 种 典型 的 传统 机 器 学 习 算法 与 加 入 了 时 许 信息 
的 本 文 算法 ,进行 疲劳 检测 准确 率 和 对 误 判 率 进行 了 对 比 实验 ， 


结果 如 表 4 所 示 。 


实验 结果 表明 在 相同 特征 下 加 入 时 序 性 
高 状态 判断 的 准确 率 。 


降低 误 判 率 并 大 幅度 提 


盲 息 将 能 够 有 效 的 


同时 ， 本 文选 取 最 新 的 方法 081920 进 行 比较 ， 表 
81920 的 比较 。 实 验 表明 ， 本 文 所 提 
达到 93.196 的 准确 率 ， 比 以 往 的 方法 准 


本 文 的 方法 和 以 前 的 方法 
出 的 方法 在 疲劳 判断 


n 


5 给 出 了 


fZ : 基于 时 序 性 面部 动作 信息 的 驾驶 员 状 态 检测 框架 
确 率 有 所 提升 。 
表 4 传统 算法 与 本 文 算法 比较 
算法 误 判 率 (%) 准确 率 (%) 
DT 28.91 72.31 
LR 18.36 75.35 
GBDT 17.34 77.93 
SVM 10.2 82.5 
本 文 算法 2.4 93.1 
表 5 与 现 有 方法 进行 比较 
判断 所 需 数据 M 
方法 FE 上 对 间 特 征 选取 ”准确 率 /% 
文献 [20] 30 生理 信号 无 90 
MSTNI?! 4 面部 视觉 LSTM 85.52 
文献 [18] 12 表情 信息 MLR 90 
本 文 方法 5 表情 信息 LSTM 93.1 
4 ”结束 语 
本 文 提 出 了 一 种 通过 监视 器 获取 的 视频 ， 自 动 检测 驾驶 员 
状态 的 框架 。 本 文 针 对 的 应 用 场景 主要 为 ， 利 用 放 在 仪表 盘 上 
方 等 位 置 的 普通 摄像 头 ， 对 驾驶 员 面 部 视频 数据 进行 采集 ， 
作出 疲劳 检测 。 本 文 的 方法 将 面部 动作 单元 进行 编码 ， 并 通过 
实际 实验 获取 合适 的 面部 动作 单元 组 合 。 同 时 ， 为 了 提高 检测 
驾驶 状态 的 准确 率 ， 本 文 的 框架 添加 了 长 短期 记忆 网 络 进行 时 
间 序 列 信息 分 析 ， 相 对 于 现 有 的 方法 ， 实 现 了 对 驾驶 员 状 态 的 


更 为 有 效 识别 。 通 过 Yaw-DD 数据 集 的 测 实验 证 
于 多 个 人 种 。 与 之 前 其 他 方法 比较 该 框架 成 本 低廉 ， 无 须 对 轰 
驶 员 添 加 任何 装置 ， 因 此 不 会 对 驾驶 员 的 驾驶 行为 产生 其 他 影 
响 。 在 接 下 来 的 研究 中 本 文 还 将 会 对 更 多 更 复杂 的 驾驶 员 状 态 

进行 判别 ， 以 期 能 够 更 好 更 加 精准 的 判别 驾驶 行为 是 否 异常 。 
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